ارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد

thesis
abstract

سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا چه اندازه قادر به انطباق، بازیابی و رتبه بندی اسنادی است که به نیاز اطلاعاتی کاربر مرتبط می باشد. هرچه تعداد اسناد مرتبط بازیابی شده توسط سیستم بیشتر و تعداد اسناد نامرتبط کمتر باشد، رضایت کاربر بالاتر بوده و میزان کیفیت سیستم بیشتر خواهد بود. در این پژوهش برای افزایش میزان دقت و اثربخشی سیستم بازیابی اطلاعات از روش های خوشه بندی اسناد استفاده شده، به ترتیبی که سعی می گردد قبل از این که کاربر نیاز اطلاعاتی خود را در قالب یک پرس و جو بیان نماید، اسناد داخل مجموعه به چندین گروه تقسیم شود بطوری که اسناد داخل یک خوشه نسبت به هم دارای بیشترین مشابهت بوده و در عین حال بیشترین فاصله را نسبت به اسناد سایر خوشه ها دارا باشند. بدین ترتیب، پرس و جوی کاربر ابتدا به نزدیک ترین خوشه مرتبط شده، سپس تنها اسناد داخل آن خوشه با توجه به میزان مشابهتشان با پرس و جو، رتبه بندی و در نتایج سیستم بازیابی ظاهر می گردند. بدین ترتیب اسنادی که از لحاظ ظاهری و لغوی شباهت چندانی با پرس و جو نداشته اما از نظر محتوی، نیاز اطلاعاتی کاربر را برآورده می سازند نیز در نتایج جستجو ظاهر می گردند. برای این منظور روش خوشه بندی جدیدی با استفاده از الگوریتم یافتن تطابق ماکزیمم در گراف دوبخشی معرفی شده و نشان می دهیم خوشه بندی اسناد و اعمال آن در سیستم بازیابی اطلاعات به بهبود نتایج در مقایسه با سیستم های سنتی می انجامد. بمنظور ارزیابی روش خوشه بندی و مقایسه آن با روش های موجود، از پیکره های استاندارد 20newsgroups، webkb و reuters 21578 و یک پیکره ساختگی استفاده شده است. همچنین جهت مقایسه سیستم بازیابی اطلاعات مبتنی بر خوشه بندی با روش سنتی، از پیکره استاندارد cranfield استفاده شده است. نتایج بدست آمده نشان می دهد روش خوشه بندی پیشنهادی دارای خروجی مطلوبی بوده و استفاده از آن در سیستم بازیابی اطلاعات، منجر به افزایش میزان دقت سیستم، در مقایسه با حالت سنتی خواهد شد.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

استفاده از راهکار شبکه عصبی در بازیابی اطلاعات متنی

با افزایش حجم اطلاعات و با پیشرفت تکنولوژی، استفاده از الگوریتم‌های سنتی جهت بازیابی سریع داده‌ها کافی نبوده و به‌کارگیری راهکارهای نوین را جهت تسریع در بازیابی اطلاعات مربوط طلب می‌کند. در روش‌های سنتی، پردازش اطلاعات، معمولا به‌صورت ترتیبی صورت می‌گیرد. در روش‌های جدید بازیابی اطلاعات، علاوه بر سرعت بازیابی، درک محتوای مدرک و بازیابی مدرک مربوط حائز اهمیت می‌باشد. به‌کاربردن روش‌های هوش مصنوع...

full text

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

  The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

full text

آینده سامانه‌های بازیابی اطلاعات متنی

هدف: شناسایی عوامل مؤثر بر آیندة سامانه‌های بازیابی اطلاعات متنی هدف این پژوهش است. روش‌شناسی: داده‌ها از متون و پیمایش نظرات متخصصان بازیابی اطلاعات به روش نمونه‌گیری هدفمند گردآوری شده است. یافته‌­ها: بُعد فناوری بیشترین تأثیر را بر آیندة سامانه‌­های بازیابی اطلاعات خواهد داشت. بُعد هوش مصنوعی با‌ ضریب 93 مؤثرترین شناخته شد. حق مؤلف در بُعد سیاسی با‌ ضریب86 و وابسته شدن مشاغل به اطلاعات در بُعد...

full text

ارایه شاخصی جدید جهت سنجش اعتبار خوشه بندی در الگوریتم های خوشه بندی فازی نوع-2

One of the main issues in fuzzy clustering is to determine the number of clusters that should be available before clustering and selection of different values for the number of clusters will lead to different results. Then, different clusters obtained from different number of clusters should be validated with an index. But so far such an index has not been introduced for interval type-2 fuzzy C...

full text

جداسازی خودکار کانی های موجود در مقاطع نازک سنگ ها با استفاده از الگوریتم های پردازش تصویر و خوشه بندی

جداسازی خودکار کانی‌ های موجود در مقاطع نازک با استفاده از روش‌های پردازش تصویر، یکی از موضوعاتی است که در سال‌های اخیر مورد توجه زمین‌ شناسان قرار گرفته است. سنگ‌ها اصلی‌ترین منبع اطلاعاتی زمین‌ شناسان می‌باشند، و یکی از روش‌های متداول مطالعه سنگ‌ها، تهیه مقاطع نازک از آن‌ها و بررسی این مقاطع با استفاده از میکروسکوپ‌ های انکساری قطبی کننده نور است. همچنین جداسازی کانی‌ های موجود در مقاطع نازک،...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023